VFMTok: Visual Foundation Models驱动的Tokenizer时代来临
近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、
foundationmodels vfmtok founda 2025-10-28 18:02 2
近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、
foundationmodels vfmtok founda 2025-10-28 18:02 2